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(中 国民 航 大 学 计算 机 科学 与 技术 学 院 ， 天津 300300) 


摘 要 : 为 了 解决 多 源 异 构 民航 旅客 服务 数据 集成 过 程 中 存在 多 模式 匹配 的 效率 不 高 、 精 确 性 不 足 、 完 整 模式 信息 获 
取 难 度 较 大 等 问题 , 提出 了 一 种 基于 SimHash 和 混合 相似 度 的 多 模式 匹配 方法 。 该 方法 首先 基于 PMI 计算 特征 单元 权 
重 ， 并 通过 SimHash 算法 构造 属性 列 的 签名 来 表示 属性 特征 ， 以 降低 特征 维度 ， 进 而 引入 开 -means++ 算 法 对 属性 聚 类 
并 生成 候选 匹配 集 。 最 后 基于 属性 的 混合 相似 度 构建 属性 映射 图 ， 以 直观 的 方式 展示 属性 间 的 匹配 关系 ， 同 时 提高 多 
模式 匹配 效率 。 实 验 结果 表明 该 方法 具有 可 行 性 ， 为 高 效 的 解决 多 源 异 构 民航 旅客 服务 数据 集成 中 的 模式 冲突 问题 提 
供 新 的 解决 方案 。 

关键 词 : 多 模式 匹配 ; 签名 ; 点 互信 息 ; 混合 相似 度 ; 属性 映射 图 

中 图 分 类 号 : TP391 doi: 10.19734/j.issn.1001-3695.2018.06.0462 


Multiple schema matching method based on simhash and mixed similarity 


Cao Weidong, Hu Wei, Wang Jialiang, Wang Jing 
(College of Computer Science R&Technology, Civil Aviation on University of China, Tianjin 300300, China) 


- — Abstract: In order to solve the problems of multiple schema matching in the process of integrating multi-source heterogeneous 
civil aviation passenger service data, such as low efficiency, low accuracy and the complexity of obtaining complete Schema 
information, this paper proposed the multiple schema matching method based on SimHash and mixed similarity. Firstly, the 


method calculated the weight of feature units based on PMI, and generated the signature of columns by SimHash to represent 


attribute features to reduce feature dimension. Further, it employed K-meanst+t+ to generate candidate matching sets by clustering 
the columns. Finally, it constructed the mapping graph of attributes based on attributes’ mixed similarity, and displayed the 
matching relationship between attributes intuitively. Meanwhile, it improved efficiency of multiple schema matching. The 
experimental results verify the feasibility of the proposed method. The method provides a new solution for efficiently resolving 
the schema conflict in the process of integrating multi-source heterogeneous civil aviation passenger service data. 


Key words: multiple schema matching; signature; PMI; mixed similarity; attribute mapping graph 


统 的 模式 匹配 方法 应 用 在 此 领域 存在 如 下 问题 : 
a) 基 于 模式 信息 的 匹配 方法 对 模式 信息 的 完整 性 
国内 民航 旅客 服务 信息 系统 中 存 有 大 量 与 收益 相关 的 数据 ，” 当 模式 信息 不 全 时 , 仅 通过 计算 属性 之 间 的 文本 相似 度 来 区 分 
如 PNR(Passenger name record, 旅 客 姓名 记录 )、ET(Electronic 属性 ,无 法 获得 理想 的 匹配 结果 。 如 表 1 中 的 psg type 属性 与 表 
Ticket, 电 子 客票 )、CKI(Check-In, 离 港 信息 ) 等 。 这 些 数据 由 不 同 ”2 中 的 opt_type 属性 之 间 的 文本 相似 度 很 高 ,但 它们 指 代 意 义 却 
立 用 产生 并 分 散在 各 自 的 系统 中 ,存在 模式 异 构 问 题 。 如果 对 民 ”全 然 不 同 。 


0 引言 


六 问 
尘 
湾 
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航 收益 漏洞 产生 的 原因 进行 综合 分 析 , 就 需要 对 多 源 异 构 数据 b) 基 于 数据 实例 的 匹配 方法 无 法 解决 因数 据 分 布 特征 相似 

进行 集成 。 而 模式 匹配 技术 是 数据 集成 的 关键 技术 , 它 可 以 发 现 。 带 来 的 误 配 问题 。 如 表 1 中 的 orgn_city 代表 出 发 城市 , 表 2 中 

属性 之 间 的 语义 映射 关系 ,消除 数据 模式 的 异 构 冲突 。 的 destination 表示 到 达 城 市 ,它们 的 数据 实例 分 布 相似 ,但 若 据 
目前 , 因 民 航 旅客 服务 领域 数据 安全 性 要 求 较 高 ,数据 的 多 ”此 判断 它们 表示 相同 的 语义 就 会 导致 错误 。 

级 安全 访问 权限 造成 数据 的 详细 模式 信息 获取 较 难 ,经 分 析 传 0) 传 统 方法 解决 的 是 二 元 匹配 问题 ， 当 n 个 数据 模式 进行 
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匹配 时 ,传统 方法 每 次 匹配 两 个 模式 ,需要 近代 n(n-1)/2 次 ,因此 ”提供 了 新 的 思路 ,但 在 实际 匹配 过 程 中 需要 的 多 种 模式 信息 不 
匹配 效率 不 高 。 易 获 得 。 
表 1 民航 旅客 订 座 数据 表 (PNR) 在 数据 具有 访问 权限 ,无 法 获得 详细 模式 信息 的 背景 下 ,以 
Tablel Civil aviation passenger booking records data sheet 上 四 类 方法 难以 获得 理想 的 匹配 效果 。 因 此 本 文 提 出 使 用 属性 
tk no orgn_city psg type : 的 数据 实例 和 属性 名 作为 辅助 匹配 信息 的 方法 ,该 方法 在 数据 
9. 99979E+12 TAO CIP 本 安全 要 求 较 高 的 民航 领域 同样 适用 。 
ooti ca0 ap .2 基于 SimHash 的 时 类 分 析 
9. 99242E+12 SHE CIP 本 2.1 基于 点 互信 息 的 SimHash 算法 
表 2 电子 客票 数据 表 (ET) 在 多 模式 背景 下 ,属性 的 数据 实例 又 称 为 属性 列 。 由 于 属性 
Table2 Electronic ticket data sheet 列 与 属性 是 一 一 对 应 的 关系 ,因此 可 以 用 属性 列 的 特征 来 表示 
opt type destination TICKET NO 要 遇 性 特征 。 传 统 方法 用 互信 息 理论 来 计算 属性 之 间 的 相似 度 时 ， 
R CGO 9. 99242E+12 a 于 提取 的 特征 单元 较 多 ,导致 属性 列 的 特征 向 量 维度 较 高 ,不 
R BZV 9. 99242E+12 i 利于 后 续 的 计算 。 本 文 使 用 基于 点 互信 息 PMD 的 SimHash 算 
V SSG 9. 99852E+12 有 法 来 生成 固定 位 数 的 签名 作为 属性 列 的 特征 ,有 效 的 降低 了 特 
R TAO 9. 99442E+12 征 向 量 的 维度 。 并 给 出 如 下 相关 定义 。 
针对 上 述 问题 ,本 文 提 出 一 种 基于 SimHash 和 混合 相似 度 定义 1 特征 单元 。 指 从 数据 实例 中 提取 的 具有 实际 含义 
的 多 模式 匹配 方法 来 探究 属性 之 间 的 匹配 关系 ,将 模式 级 的 匹 。 可 以 用 来 表示 数据 实例 特征 的 数值 或 者 字符 串 。 
配 问题 转换 成 属性 级 的 匹配 问题 ,在 简化 多 模式 匹配 过 程 的 同 由 于 数据 实例 复杂 多 变 ,因此 将 数据 实例 分 为 字符 串 型 、 时 
时 提高 了 匹配 质量 。 间 型 和 数值 型 三 类 ,以 便 提取 特征 单元 。 跟 据 定义 1 对 字符 串 类 
型 的 数据 用 q-gram 提取 特征 单元 ,时 间 型 数据 按照 年 、 月 \ 日 、 


1 ”相关 工作 时 、 分 、 秒 等 进行 单位 分 割 处 理 。 数 值 类 型 具有 稀 琉 性 ,可 以 采 
模式 匹配 方法 经 多 年 发 展 已 经 取得 了 较 好 的 成 果 思 根据 “用 等 距 划分 法 提取 特征 单元 。 属 性 列 4 提 取 特 征 单元 后 ,以 键 人 
博 助 匹配 信息 的 不 同 主要 分 为 以 下 四 种 : 对 的 形式 表示 为 a={<u,ta(w)>,<w,ta(w)>,…,<w,ta(w)>} ,其 


a) 基 于 模式 信息 的 匹配 ,如 COMAD 和 SEMINTB] 通 过 结合 中 ,ui 是 a 的 特征 单元 , ta(w) 是 wi 在 属性 列 a 中 出 现 的 频次 。n 
多 种 模式 信息 ,取得 了 较 好 的 匹配 效果 ,但 当 多 个 模式 匹配 时 ,此 ”个 属性 列 的 所 有 特征 单元 的 交集 为 0={,ww…,4} ,代表 属 


类 方法 的 时 间 复 杂 度 较 高 。Ding 等 人 四 提出 通过 TF-IDF 方法 ”性 列 的 特征 集合 。 

构造 属性 的 特征 向 量 对 属性 聚 类 分 析 降 低 了 多 模式 匹配 的 时 间 定义 2 点 间 互 信息 。 指 衡量 任 一 属性 列 ax 与 任 一 特征 音 

复杂 度 问题 ,但 存在 “同名 异 义 ”和 “ 同 义 异 名 ”的 属性 ,导致 其 匹 元 峰之 间 所 草 涵 信息 量 差异 的 一 种 量度 ,用 pmi(asz) 表 示 。 

配 效 果 不 佳 。 Ny ta (4, )/T i 
b) 基 于 结构 信息 的 匹配 。 早 期 的 基于 结构 信息 的 模式 匹配 Cat) (EA 

方法 将 源 模式 和 目标 模式 通过 树 或 图 的 结构 表示 出 来 ,再 通过 ”其 中 : ia(w) 表示 特征 单元 在 属性 列 & 中 出 现 的 频次 ， 

计算 对 应 节点 之 间 的 相似 度 来 挑选 最 佳 匹配 S51, 为 了 提高 模式 


Sa y) 表示 特征 单元 心 在 所 有 属性 列 中 出 现 的 频次 和 ， 


匹配 的 准确 度 ,后 来 杜 小 坤 等 人 中 又 提出 了 IU_Based 方法 。 

co) 基 于 数据 实例 的 匹配 :早期 基于 数据 实例 的 匹配 方法 。 通 
过 获得 数据 实例 的 重复 度 来 挖掘 属性 之 间 的 匹配 关系 ls ,该 类 
方法 挖掘 出 的 数据 实例 分 布 特征 并 不 完整 。Ahmadi 等 人 00 提 ”” 现 的 频次 和 ,7 表示 所 有 特征 单元 在 所 有 属性 列 中 出 现 的 频次 和 。 
出 用 q-gram 方法 结合 互信 息 理 论 构造 属性 列 的 特征 向 量 ,但 当 SimHash 算法 [ 屿 是 一 种 计算 海量 文本 相似 度 的 高 效 算法 ， 
数据 实例 相似 时 会 导致 误 配 情况 (例如 数值 型 的 属性 列 之 间 无 ”其 原理 是 将 高 维 文本 特征 转换 为 固定 位 数 的 签名 ,通过 比较 签 
法 区 分 ); Mehdi 等 人 [1 提出 通过 正则 表达 式 来 匹配 数据 实例 的 ” ”名 来 获取 相似 关系 。 由 定义 2 可 知 ,属性 列 与 其 包含 的 特征 单元 
方法 就 解决 此 问题 ,但 是 该 方法 最 后 仅 借助 谷歌 相似 度 来 区 分 之 间 的 PMI 值 越 大 , 则 该 特征 单元 与 当前 属性 列 的 相关 相关 性 
误 配 属性 ,准确 度 受 限 ; Gu 等 人 0 提出 将 实例 匹配 和 模式 匹配 。 越 大 。 若 两 个 属性 列 相同 的 特征 单元 越 多 , 则 这 两 个 属性 列 匹 配 


交互 执行 ,从 而 提高 模式 匹配 的 准确 度 也 是 一 种 可 行 的 方法 ,但 。 ”的 可 能 性 越 大 。 因此 本 文 使 用 特征 单元 与 属性 列 的 PMI 值 作为 


六 tax(wy) 表示 特征 集合 U 中 的 所 有 特征 单元 在 属性 列 a 中 出 


TH 可 


匹配 过 程 趋 于 复杂 。 权重 ,提出 基于 PMLSimHash 的 属性 列 签名 生成 算法 。 
dd) 基于 其 他 信息 辅助 匹配 的 方法 。 如 运用 本 体 知识 构造 模 算法 1 生成 属性 列 签 名 


式 本 体 与 全 局 本 体 进行 匹配 的 方法 [al 为 解决 多 模式 匹配 问题 输入 :n 个 属性 列 集合 4=-{anaz son。 
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录用 定稿 草 卫 东 ， 等 : 基于 SimHash 和 混合 相似 度 的 多 模式 匹配 方法 Chinaxiv 合 作 册 而 
输出 :所 有 属性 列 的 签名 集合 P。 该 模型 计算 属性 的 混合 相似 度 并 构造 属性 映射 图 来 描述 属性 之 
1 P=O 间 的 匹配 关系 。 
2 foraEAd 3.1 混合 相似 度 计算 方法 
3 a={11,U2,...,Uy} 3.1.1 基于 语法 和 语义 的 属性 相似 度 计算 
4 5S=0 民航 旅客 服务 数据 的 属性 存在 词 干 表达 和 复合 词 表达 的 形 
5 foruEea 式 ,在 基于 TF-IDF 计算 不 同 模式 属性 的 语法 相似 度 之 后 需要 对 
6 s=hash(u) 其 进行 拆 分 和 词 形 还 原 的 标准 化 处 理 ,再 计算 其 语义 相似 度 。 例 
7 if s;==0 如 (TICKET NO)->{ticket, number} 。 
8 s= pmi(a,u) a) 基 于 TF-IDF 的 语法 相似 度 计算 和 内。 首先 将 候选 匹配 集中 
9 else 的 属性 用 q-gram 方法 分 割 成 字母 单元 ,再 通过 TF-IDEF 方法 计算 
10 s= -pmi(a,u) 字母 单元 的 权重 w, 最 后 用 一 组 权重 向 量 y=(wi,w2,.….,wn) 来 表示 
11 end if 二 
属性 ,属性 sn 与 nj 之 间 的 语法 相似 度 表 示 为 : 
| 之 S=+S 
13 end for RN OW 0) 
14 ifSi>0 本 
15 SE1 b) 基 于 WordNet 的 语义 相似 度 计算 01。 在 WordNet 中 影响 
16 else 两 个 概念 词 之 间 相 似 度 的 因素 有 两 个 ,分 别 是 两 个 概念 词 在 
17 SF0 WordNet 中 的 距离 和 概念 词 在 WordNet 中 包含 的 信息 内 容 (C)。 
18 endif 其 中 影响 IC 值 的 因素 有 概念 词 的 在 WordNet 中 的 深度 和 概念 
19 P=P.add(S) 词 在 WordNet 中 的 密度 。IC 值 与 概念 词 的 密度 呈 负 相关 与 概念 
20 end for 词 的 深度 呈正 相关 。 为 准确 表示 属性 之 间 的 语义 相似 度 ,本 文 使 
21 return P 用 基于 IC 的 相似 度 计算 模型 来 衡量 属性 之 间 的 语义 相似 度 。 
有 具体 步骤 为 :遍历 属性 列 集合 4, 提 取 属 性 列 a 的 特征 单元 。 计算 模型 定义 如 下 。 
集合 q={uz,uz,.…,wy}; 用 相同 的 hash 函数 生成 特征 单元 z 的 了 位 ic(an)=1 log (hypo (sn)+1) em 一 en @) 
签名 s, 并 根据 式 (1) 计 算 pmilay)。 车 s 中 第 i 位 为 1, 则 更 新 s 的 log(Nodews) er +e 
第 i 位 为 pmi(a,u); 否则 ,更 新 为 -pmi(a,u)， 并 对 属性 列 a 中 的 L(IC)=IC(sn,)+IC(sn,)—2xIC(sn,sn,) (4) 
所 有 特征 单元 x 的 签名 s 进行 按 位 求 和 得 5, 判 断 5; 并 更 新 其 和 G5) 
值 ; 最 后 将 属性 列 的 签名 8 加 入 到 集合 P 中 ,最 后 返回 所 有 属性 log(2x Dep +1) 
列 的 签名 集合 P, 算 法 结束 。 WiSim(sn, sn,) =e (Oe) (6) 
2.2 聚 类 分 析 其 中 :IC(sn) 表 示 属 性 sn 包含 的 信息 内 容 ,L(IC) 表 示 IC 语义 吕 


于 属性 与 属性 列 是 一 一 对 应 的 关系 ,因此 用 属性 列 的 签 离 ,L(path) 表 示 两 个 概念 词 基于 最 短路 径 的 语义 距 
名 来 表示 属性 特征 并 进行 聚 类 分 析 , 即 可 得 出 属性 的 聚 类 关系 。 ” 离 ,WtSim(snisn)) 表 示 属 性 sm 和 snj 之 间 的 语义 距离 。hypo(sn) 
k-means++ 算 法 05 作 为 一 种 基于 划分 的 聚 类 算法 其 优点 在 于 收 表示 属性 sn 在 WordNet 中 的 下 位 词 数量 ,Nodemar 表示 WordNet 
敛 速度 快 、 稳 定性 高 (和 普通 K-means 相 比 )。 本 文 用 属性 列 的 中 所 有 概念 节点 的 数量 ,depth(sn) 表 示 sn 在 WordNet 中 的 深度 ， 
签名 集 P 和 聚 类 数 丰 作为 久 -means++ 的 输入 。 输 出 为 包含 上 个 Dis(sni,sn)) 表 示 属 性 sn; 和 snj 在 WordNet 中 的 最 短 距离 。4, o, 8 
候选 匹配 集 的 集合 R,R= {7, 克 ,…7} ,其 中 为 第 i 个 候选 还 。” 为 大 于 零 的 参数 。 
配属 性 集合 。 对 于 模式 中 非 复 合 表达 形式 的 属性 按照 式 (6) 计 算 其 语义 
随 着 大 值 的 变化 , 聚 类 结果 可 能 会 出 现 两 种 情况 : a) 表 示 不 相似 度 ,对 于 复合 表达 形式 的 属性 经 过 还 原 处 理 后 是 由 两 个 及 
同 语义 的 属性 可 能 聚 为 一 类 ;b) 表 示 相 同 语义 的 属性 可 能 存在 以 上 的 单词 构成 的 词 集 时 , 先 通过 式 (6) 计 算 词 集中 单词 的 相似 
于 不 同类 中 。 针 对 问题 3) 本文 提出 一 种 属性 混合 相似 度 计 算 方 。 上 度 ,此 时 WtSim(snissn)) 为 属性 的 词 集 相 似 度 。 
法 来 区 分 候选 匹配 集中 语义 不 一 致 的 属性 。 针 对 问题 b) 本 文 运 3.1.2 混合 相似 度 计算 模型 
用 启发 式 思想 动态 寻 优 k 值 。 由 于 单独 使 用 语法 或 语义 相似 度 无 法 准确 表示 属性 之 间 的 
相似 关系 ,因此 结合 两 者 提出 一 种 新 的 混合 相似 度 计 算 模 型 。 
Rh 对 于 一 个 标注 为 匹配 的 属性 对 , 若 使 用 语法 (语义 ) 相 似 度 
为 了 更 加 准确 地 区 分 候选 匹配 集中 的 误 配 属性 ,提出 一 种 ， 算 方 法 得 到 的 相似 度 值 越 接近 1, 则 可 认为 该 种 相似 度 的 区 分 能 
新 颖 的 基于 相似 度 区 分 能 力 的 混合 相似 度 计算 模型 ,进而 根据 ” 力 越 强 。 对 于 一 个 标注 为 不 匹配 的 属性 对 ,车 也 使 用 该 相似 度 计 
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算 方法 得 到 的 相似 度 值 越 接近 0, 则 可 认为 该 种 相似 度 的 区 分 能 21 end if 

力 越 强 。 基 于 以 上 分 析 给 出 相似 度 区 分 能 力 定义 。 22 end for 

定义 3 ”相似 度 区 分 能 力 。 对 于 带 标签 属性 对 集合 XY 和 23end for 

XX? 中 的 属性 对 都 被 标注 为 匹配 中 的 属性 对 都 被 标注 为 非 24return G(R,E) 

匹配 ,SIMx” 和 SIMx' 分 别 表示 基于 语法 (语义 ) 相 似 度 方法 得 出 L 体 步 又 如 下 : 

的 相似 度 集合 。 则 相似 度 区 分 能 定义 为 : a) 分 别 从 标签 为 匹配 和 非 匹 配 的 集合 XY” 和 总 中 每 次 挑选 

a 一 个 属性 对 分 别 加 入 集合 M 和 U 中 ,根据 M 和 U 用 式 (2) 计 算 

dp， = i sr (7) 属性 对 的 TF-IDF 相似 度 EdSim(snisnj), 进 一 步 根据 式 (7) 计 算 


TF-IDF 方法 的 区 分 能 力 dpsimn(EdSim), 友 代 这 个 过 程 直 到 


其 中 ,dpsim 表示 相似 度 区 分 能 力 ,simi 表示 属性 对 的 相似 度 ,| dpsimn(EdSim) 的 变化 小 于 给 定 阔 值 s 停止 ,并 返回 dpsim(EdSim)。 
和 员 人 分 别 表 示 集 合 刀 和 总 中 属性 对 的 数量 。 同 理 可 得 dpsim(WtSim) 值 (3-15 行 )。 

结合 定义 3 可 以 得 出 基于 相似 度 区 分 能 力 的 混合 相似 度 计 b) 遍 历 集合 R, 先 分 别 根 据 式 (2)(6) 计 算 x 中 属性 对 (sni,sm) 的 

算 模 型 定义 如 下 : TF-IDF 相似 度 EdSim(sni,snj) 和 WordNet 相似 度 WtSim(sni,sn))， 

进而 根据 式 (8) 计 算 其 混合 相似 度 sim(sni,sn)), 若 sim(sni,snj)>=0, 


sy ESim( mm) 8， 则 以 属性 sm 和 sm 为 顶点 ,将 过 (snosn) 加 入 集合 中 ,最 后 输出 
du (WSim) wsin(m my 属性 映射 图 G(R,E)(17~24 行 ) 算 法 结束 。 最 后 相互 匹配 的 属性 


0 以 边 的 形式 连接 ,而 误 匹 配 的 属性 以 孤立 点 的 形式 存在 。 属 性 2 


Sim 


sim(sn,, sn, ) = 


Pr 


其 中 :dpsim(EdSim) 和 dpsim(WtSim) 分 别 表示 语法 相似 度 和 语义 ” 间 的 关系 以 图 的 形式 直观 的 表示 出 来 。 
相似 度 的 区 分 能 力 ,p 为 参数 , 且 p>0。 另外 ,通过 分 析 COMA 方法 外 发 现 影响 多 模式 匹配 时 间 复 
3.2 ”基于 混合 相似 度 的 多 模式 匹配 算法 杂 度 的 关键 在 于 匹配 过 程 中 执行 相似 度 计算 的 次 数 。 参 与 匹配 
为 了 从 候选 匹配 集中 筛 除 误 匹 配 项 ,获取 最 终 的 属性 匹配 。” 的 模式 数量 以 及 模式 中 属性 数量 越 多 ,需要 执行 相似 度 计算 的 
关系 ,构建 基于 属性 混合 相似 度 的 属性 映射 图 ,如 算法 2 所 示 。 属性 对 数量 越 多 ,COMA 方法 时 间 复 杂 度 就 越 高 。 设 有 n(n>=2) 
算法 2 构建 属性 映射 图 G(R,E) 个 待 匹 配 模式 ,每 个 模式 平均 包含 了 m(m>1) 个 属性 。 在 实际 匹 
输入 : 匹配 属性 对 集合 Yr 和 非 匹 配属 性 对 集合 马 , 阔 值 = 配 过 程 中 ,模式 中 的 属性 存在 见 余 并 不 是 对 应 ,当选 用 
邢 0 候 选 下 配 集 R={71,72,.…,7k}。 COMA 方法 来 处 理 多 模式 匹配 时 ,匹配 过 程 主要 分 为 三 步 ,首先 
输出 : 属性 映射 图 G(R,E)。 从 7 个 模式 中 挑选 两 个 模式 ,进而 根据 模式 的 属性 类 型 选择 对 
1 dpsim(EdSim)’=dpsim( WtSim)’=0.5 应 的 匹配 器 计算 相似 度 ,最 后 集成 不 同 匹 配器 的 结果 。 在 该 过 程 
2M= @,U=@ 中 只 需 关注 执行 相似 度 计算 的 属性 对 数量 ,将 其 设 为 六 可 得 : 
3 for xmEXm,xu EX! 1 ， 
¥==n* (nD)*n (9) 
4 M=M.add(x™),U=U.add(x") 2 
5 if |dpsm(EdSim)-dpsim(EdSim)’|<e 本 文 的 方法 先 对 mn 个 属性 聚 类 分 析 , 获 得 Kf>1,k 为 常数 ) 
6 return dpsim(edsim) 个 候选 匹配 集 ,进而 根据 候选 匹配 集中 的 属性 计算 相似 度 。 设 第 
J i(i < 大 ) 个 候选 集中 包含 总 个 属性 , 则 有 mrn= yx 。 若 将 本 文 
8 dpsim(EdSim)’= dpsim(EdSim) i 
9 endif 算法 执行 相似 度 计算 的 属性 对 数量 设 为 岂可 得 
10 if Bas ean iene <e yy ls | Dy 2 LS 1 (10) 
11 RETURN dpsim( WtSim) 忌 忆 妨 加 
12 else 在 这 里 >1, 当 =1 时 表示 候选 匹配 集中 只 有 一 个 属性 ， 
13 dpsim( WtSim)’= dpsim( WtSim) 不 会 进行 相似 度 计算 。 实 际 情况 下 kn, 设 x=m( 实 际 情况 下 xi 
14 endif 1 1 ee 
的 取 值 在 m 上 下 波动 ), 则 有 五 =sn*mr -=n*m, 由 于 了 > 到 ,因此 
1$end for 2 2 
16E=@ 本 文 算法 进行 相似 度 计 算 的 运算 量 更 小 。 
17for rER 同时 根据 以 上 分 析 可 知 ,本 文 算法 的 时 间 复 杂 度 为 O(nm?), 
18 for sni,snEr 而 COMA 方 法 的 时 间 复 杂 度 为 O(n2m?), 因 此 本 文 算法 的 时 间 复 
19 if sim(sni,sn;)>=0 杂 度 更 低 。 
20 E=E.add((snisn))) 综 上 所 述 ,基于 SimHash 和 混合 相似 度 的 多 模式 匹配 方法 


对 应 的 处 于 


流程 如 图 1 所 示 。 


曹 卫 东 ， : 基于 SimHash 和 混合 


用 


并 生成 属性 列 签名 集 P 


特征 单元 x 表示 属性 列 a 


使 用 k-mean++ 对 P 聚 类 
集 r 构 成 集合 R 


,得 到 K 个 候选 


初始 化 边 集 E 


计算 r 中 所 有 的 属性 对 的 


sim(sni,sn)) 


初始 化 参数 
一 一 一 一 一 一 一 一 一 各 | 


计算 dpsin(EdSim),dpsim(WtSim) 
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11=|dpsin(EdSim)-dpsin(EdSim)’| 
ta=|dpsim(WtSim)-dpsim(WtSim)’| 


Fig.1 


更 新 dpsim(EdSim)” 
和 dpsin(WtSim)’ 


Da 


4 ”实验 与 评价 


4.1 实验 数据 集 
本 文选 


j 的 实验 数据 来 自 


民航 旅客 订 座 
和 客座 率 数 失 
实例 。 这 些 妆 


虽 (INV) 四 
而 入 于 丰 二 证 间 委 下头 妆 天 轴 和 于 二 


后 (PNRJ)、 


1 多 模式 匹配 方法 流程 氏 


Flow diagram of multiple schema matching method 


挑选 sim(sni,snj) 大 于 9 的 属 


性 对 ,并 将 边 (snisn) 加 入 E 


于 民航 旅客 服务 系统 (PSS) 中 的 
J ee 离 港 数 ] 
原 中 的 部 分 数据 属性 和 大 量 数据 


居 (CKD 


个 功能 


相似 度 的 多 模式 匹配 方法 


验 结果 及 分 析 
实验 过 程 主要 从 聚 类 磊 值 、 相 似 度 


Xx 

据 实例 的 数量 这 四 个 角度 考虑 不 同 因素 对 
的 影响 ,并 设计 了 多 组 对 00 0 性 。 
4.3.1 k 值 对 聚 类 结 

0 仿 结 果 有 一 定 的 影响 。 若 
类 之 间 就 不 易 区 分 ,影响 最 终 匹 配 的 查 准 率 。 若 大 值 选 
于 同一 类 的 属性 会 被 分 开 影响 最 终 的 查 全 率 。 
中 数据 实例 数量 为 500, 聚 类 算法 使 用 kmeans++, 实 验 结果 如 医 


分 能 力 、 综 合 相 似 度 


果 影 


Match Attributes Number 


a 


10 时 和 12 13 14 15 16 


K Number 


尘 


2 kk 取 不 同 值 时 的 聚 类 结果 


Cluster results with different k values 


据 图 2 可 得 , 横 坐 标 表示 聚 类 数 大 的 取 值 , 纵 坐 


P 完全 匹配 的 属性 的 数量 之 和 。 


匹配 的 属性 数量 达到 峰值 , 聚 类 效果 最 好 。 而 ! 


模块 ,不 所 


所 


能 模块 为 了 提 


高 查询 速度 设计 了 一 些 见 余 的 属 


性 


数据 分 成 四 


虽 名 称 不 同 ,但 去 


组 ,代表 四 


种 来 源 世 


I 表示 相同 的 语义 。 实 验 过 程 中 
异 构 数 据 集 。 


属性 及 实例 数量 


Table3 Number of attributes and instances 


Fs 


实际 匹配 过 程 中 取 值 应 当 
4.3.2 探 完 不 同 相 


包 忆 


据 文献 [16],WordN 


盟 性 最 大 数量 为 16, 此 时 大 值 与 之 相近 。 消 
与 单个 模式 中 属性 的 最 大 数 
以 度 的 区 分 能 
性 对 中 随机 挑选 适量 的 属性 对 ,构成 匹配 
集合 。 其 中 匹配 集合 与 不 匹配 集合 中 的 属 | 
et 相似 度 的 参数 设置 为 


al 


本 =0.4,0=0.2,6=0.1, 实 验 结果 如 图 3 所 示 。 


根据 图 3 可 be 坐标 表示 [匹配 属性 对 集合 与 不 匹配 属性 天 
量 之 和 , 纵 坐 标 表 示 相 似 度 区 儿 


异 构 数据 源 属性 数量 属性 的 实例 数量 ”匹配 的 属性 数量 
PNR 16 14 
ET 11 10 
CKI 14 14 
INV 11 10 
4.2 评价 指标 
实验 结果 采用 模式 匹配 领域 中 的 查 准 率 (Precision)、 查 全 率 
GecalD) 和 全 面 4 若 7 为 模式 匹配 算 
法 返回 的 正确 匹配 结果 数量 ; 法 返回 的 所 有 匹配 结果 数 
量 ;FP 为 算法 返回 的 错误 的 匹配 结果 数量 ;R 为 实际 所 有 正确 的 


匹配 结果 数量 。 


Precision = 过 
Pp 


Recall = 一 


性 ”Overall= 一 一 = Recallx (2 一 ] 


Precision 


[xi 


I 区 分 能 力 值 稳定 在 0.69 左右 ,而 TF-IDF 的 
平稳 的 趋势 ,最 后 稳定 在 0.61 左右 。 
司 义 词 构成 的 属性 不 敏感 ,因此 与 WordNet 方 法 相 比 


dpsim 
口 口 © 口 口 oO 口 口 oO 


= 


分 能 力 A 
分 能 力 较 弱 。 
| ¥—-WordNet | 
TF=TdE 
一 放 一 一 闪 一 一 放 一 一 论 
本 和 
本 
40 60 80 100 120 140 
Pairwise Number 


图 3 不 同 相似 度 区 分 能 力 


Fig.3 Distinguish ability of different similarity 
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结果 的 准确 性 。 实 验 中 数据 实例 数量 为 500, 阔 值 


0 


随 着 0 的 增 大 ,候选 匹 
率 增 大 。 查 全 率 和 全 面 ' 
当 0 在 0.3~0.4 时 , 召 区 
的 相 


3.3 阔 值 6 的 选择 对 
构建 属性 映射 图 


匹 
时 


草 卫 东 ， 等 : 基于 SimHash 和 混合 相似 度 的 多 模式 匹配 方法 


配 结果 的 影响 
,选择 合适 的 阔 值 有 助 于 提高 最 终 匹 配 


区 间 为 [0.3,0.6]， 


以 间隔 0.05 递增 ,实验 结果 如 图 4 所 示 。 

1 _ _ 
| -全 一 3 人 0 
0.8「r 才 -不 本 ;2 -去 -- 过 
0.7 上 FA— A A | 
0.6 
o.5F 
o.4[ 
o .3 上 
o.2 
o.I 

OT Od A Od 

Threshold (8) 
图 4 不 同 阅 值 下 的 匹配 结果 


Fig.4 Matching 
根据 图 4 可 得 查 ;# 


储 率 总 体 处 于 一 个 上 升 的 趋势 。 


results with different thresholds(O) 


原因 在 于 


配 集中 的 误 匹 配 项 被 逐渐 排除 , 


TT 


所 以 查 准 


率 在 拓 0.4 时 出 现 了 下 降 ， 


生 的 总 体 趋势 是 先 上 升 ,后 下 降 的 趋势。 
因为 存在 属性 


以 度 分 布 在 不 同 
值 0.832, 达 到 峰值 。 


性 指标 走势 可 以 得 


得 的 匹配 结果 最 优 。 
实例 数量 对 匹配 结果 的 影响 


区 间 的 情况 。 而 当 9 取 值 为 0.45 时 , 查 全 


0 第 选 后 被 排除 变 成 了 孤立 点 ,所 以 查 全 率 开 始 


当 0 大 于 0.45 时 ,更 多 正确 匹配 的 属性 
降 。 结合 


映射 


[iS 
有 


9 取 值 0.45 时 ,通过 属性 


选用 不 同 量 级 的 数据 实例 进行 对 比 实验 ,分 析 实 例 数量 对 
匹配 结果 的 影响 。 实 验 中 大 取 值 15, 闵 值 9 取 0.45, 实 验 结果 如 
图 5 所 示 

ER 01 Precision 国有 >--- :| 
图 5 实例 数量 不 同时 的 匹配 结果 
Fig.5 Matching results with different instances number 

根据 图 5 中 可 得 三 种 指标 总 体 上 呈现 一 种 微弱 的 上 升 趋势 。 
当 数 据 实例 数量 为 500 时 的 全 面 性 指标 为 0.793, 当 数据 实例 的 
数量 为 1000 时 的 全 面 性 指标 值 较 小 为 0.751。 这 主要 是 由 于 数 
据 实例 数量 较 少 时 实例 分 布 不 均 导 致 的 。 而 当 数据 实例 的 数量 
为 30000 时 ,全 面 性 指标 值 达到 0.830。 因 此 ,参与 匹配 的 数据 实 
例 数量 越 多 ,匹配 结果 的 准确 性 越 高 。 
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4.3.5 不 同方 法 对 比 实验 分 析 


本 文 提出 的 基于 SimHash 和 混合 相似 度 的 多 模式 
称 B_SHM 方法 。 对 上 
] TF-IDF 算法 提取 属性 
上 关系 。 在 这 里 简称 其 为 基于 模式 信息 的 
FP 的 方法 。 该 方法 


白 


或 


a ~ 


比方 法 二 来 
据 实例 特征 ， 


自 文献 [10] 
构造 互信 


方法 一 来 自 文献 [和 ] 中 的 方法 。 
的 特征 


实验 1 


的 匹配 关系 ,在 这 里 简称 其 


聚 类 分 析 , 从 而 获取 属性 的 
匹配 方法 (B_ATT)。 对 
] q-gram 方法 提取 数 
为 基于 数据 实例 的 匹配 方法 (B_INS)。 
本 文 提出 的 B_SHM 方法 的 实验 参数 为 k 取 15, 阐 

值 0 取 值 0.45, 数 据 实例 数量 为 30000, 实 


期 刊 


第 37 者 第 1 期 


匹配 方法 


该 方法 


作 


性 之 间 


伶 结果 如 表 4 所 示 。 


表 4 三 种 不 同方 法 对 比 实验 结果 
Table4 Comparison experimental results with the three different methods 
实验 方法 Precision Recall Overall 
B_SHM 0。951 0。875 0。830 
B_ATT 0。758 0。791 0。538 
B_INS 0。813 0。875 0。674 


实验 2 ”根据 实验 数 和 


居 引 


,分 别 取 2 个 模式 ,3 个 模式 和 4 个 


模式 进行 分 组 实验 ,测试 不 同方 法 的 运行 时 间 , 实 验 结果 如 表 5 


所 示 。 
表 5 


三 种 不 同方 法 运行 时 间 对 比 实验 结果 


Table5 Comparison experimental results of running time with three 


different methods 


实验 方法 2 个 模式 3 个 模式 4 个 模式 
B_SHM 0. 303s 0. 412s 0. 547s 
B_ATT 0. 135s 0. 216s 0. 324s 
B_INS 0. 576s 1. 296s 2. 304s 


根据 表 4 可 得 本 文 提 出 


B_INS 方法 的 查 准 率 
可 以 得 出 


B_INS 方法 的 查 全 率 持平 。 


的 B_SHM 方法 的 查 准 率 最 高 。 


高 于 B_ATT 方法 。 同 时 对 比 查 全 率 指 标 


B_ATT 方法 的 查 全 率 相对 最 低 ,而 B_SHM 方法 和 
最 后 结合 全 面 性 指标 分 析 可 知 本 文 


提出 的 B_SHM 方法 与 B_ATT 方法 相 比 提高 了 0.292, 与 B_INS 


方法 相 比 提高 了 0.156。 这 是 


大 | 


] 属 性 的 语法 相似 度 来 进行 


[ 广 汪 
上 


相 


B_SHM 方法 正好 弥 幸 


对 较 低 。B_INS 方法 仅 使 / 
语义 不 同 ,数据 实例 特 和 


为 B_ATT 方法 的 


匹配 过 程 进 使 


匹配 ,而 不 同 模式 的 属性 更 可 能 发 

E“ 同 名 异 义 ”或 者 “ 同 义 蜡 名 ”的 情况 ,所 以 匹配 结果 的 查 准 率 
数据 实例 来 辅助 匹配 ,但 存在 属性 

E 相 似 的 情况 ,因此 查 准 率 也 会 受 限 ,而 


了 B_ATT 方法 和 B_INS 方法 的 不 足 。 同 


时 ,根据 表 5 可 得 当 


长 ,B_SHM 次 之 ,B_ATT 方法 耗 时 最 短 。 原 因 在 于 B_ATT 方法 


模式 数量 相同 时 ,B_INS 方法 的 耗 时 最 


和 B_SHM 方法 相 比 ,B_SHM 方法 在 聚 类 处 理 后 义 进行 了 必要 


的 相似 度 计算 来 排除 误 配 属性 ， 
B_INS 方法 相 比 ,B_SHM 方法 将 高 维 


位 的 指纹 ,因此 聚 类 耗 
指标 和 时 间 性 能 可 知 


时 远 


因此 耗 时 较 长 。B_SHM 方法 和 


氏 于 B_INS 方法 。 


的 属性 列 特征 转换 成 128 
通过 综合 全 面 性 


据 的 模式 匹配 过 程 中 


,本 文 提出 的 方法 在 处 理 民航 旅客 服务 数 
有 相对 较 好 性 能 。 


录用 定稿 曹 卫 东 ， 


5 


式 


SimHash 和 混合 相似 度 的 多 模式 匹配 方法 。 


列 


筛选 的 有 


问题 
衡 
性 


生 。 同 时 该 方法 也 避免 了 获取 完整 数 


结束 语 


通过 对 多 源 异 构 民 航 旅客 服务 数据 的 分 析 , 并 针对 现 有 模 
匹配 方法 存在 的 效率 低 、 精 确 度 不 足 的 问题 ,本 文 提出 了 基于 
首先 ,本 文 使 用 属性 
的 签名 集 进 行 聚 类 得 到 属性 的 候选 匹配 集 , 达 到 对 属性 初步 
的 ,在 很 大 程度 上 避免 了 同名 异 义 ”或 者 “ 同 义 异 名 ”的 
其 次 ,本 文 提出 了 一 种 更 准确 的 混合 相似 度 计算 模型 , 平 
了 单一 相似 度 计算 带 来 的 误差 。 最 后 ,根据 混合 相似 度 确 定 属 
映射 关系 ,有 效 区 分 了 因为 数据 实例 特征 相似 导致 误 配 的 属 
模式 信息 的 繁琐 过 程 。 


三 


大 。 


实验 和 分 析 表 明 本 文 提 出 的 方法 在 多 源 异 构 数据 集成 领域 


可 
航 


以 有 效 解决 多 模式 匹配 效率 低下 和 精确 性 不 足 的 问题 ,在 民 
旅客 服务 数据 集成 方面 具有 重要 的 应 用 价值 。 


法 
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